
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。
本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。
自从 Transformer 问世,NLP 领域发生了颠覆性变化。大语言模型极大提升了文本理解与生成能力,成为现代 AI 系统的基础。而今,AI 正不断向前,具备自主决策和复杂交互能力的新一代 AI Agent 也正加速崛起。
你有没有想过,销售这件事情可能彻底变了?传统的销售方式正在从单纯依赖人工拨打电话、发送邮件,转向将AI agent视为驱动整个销售流程的核心力量。这不是什么小调整,而是一场彻底的范式转变。
大家好,我是袋鼠帝 说实话,一直以来,都在探索如何用我制作的AI Agent(智能)体变现 我之前大多数的Agent成交都是在微信私域里面。
在经过深度思考后,我有了一个大胆的猜想:我们一直在用错误的框架理解它,大家都把它当作"更好的编程工具",但我越用越觉得,这根本不是一个编程工具,而是一个披着终端外衣的通用 AI agent。正好周末看了Anthropic 产品负责人 Michael Gerstenhaber 的最新一期访谈,
最近,Kimi Researcher(深度研究)开启内测。根据官方介绍,其定位并非一个简单的“搜索工具”,而是一个能够生成带引用来源的深度研究报告的AI Agent。
这是我关于「AI Native 系列」的第二篇文章,主题是:行动闭环。在上一篇里,我讲了什么样的产品才算得上真正的 AI Native,分享了我对 MCP 协议、AI 架构原生性和任务闭环的理解。
2025年已成为名副其实的Agent元年。 不论是Operator、Manus、Genspark等爆款Agent的相继出现,还是各大厂商陆续发布MCP协议支持,种种迹象都在印证着AI Agent正经历从“玩具”到“工具”的关键转折。
当下的AI Agent领域,正上演着一幕“奇特”的景象,一方面,是关于Agent能力极限的狂热探讨;但另一方面,是当这些光鲜的Agent从实验室走向真实生产环境时的普遍“失速”与“沉寂”。
刚刚谷歌推出了 Gemini CLI,一个开源的 AI Agent,把 Gemini 的能力直接带到你的终端里。可以把它看作是谷歌版的 Claude Code。最香的是,这玩意儿开源、免费用,背后是带百万上下文的最强 Gemini 模型。